---
title: Analise Multivariada dos Determinantes da corrup��o
  na America Latina e Caribe
author: "Karla Membreno"
date: "3 de agosto de 2019"
output:
  word_document: default
  pdf_document: default
  html_document: default
---

## Regres�o Lineal M�ltiple

Deseja-se gerar um modelo que permita predizer o controle da corrup��o dos pa�ses da Am�rica Latina e do Caribe (41 pa�ses) com base em diferentes vari�veis obtidas do �ltimo relat�rio dos Indicadores de Governan�a do Banco Mundial (2017). Trabalha-se com o banco de dados "DataBank-Worldwide Governance Indicators" 

O estudo pretende gerar um modelo que permita prever o controle da corrup��o dos pa�ses da Am�rica Latina e do Caribe com base em diferentes vari�veis Informa��es dispon�veis sobre: Estabilidade pol�tica e aus�ncia de viol�ncia, Voz e responsabilidade, Efic�cia do governo, Qualidade regulat�ria ,Estado de Direito.

```{r echo=TRUE}
#lecrura de los datos
#library(readr)
datos2017 <- read.delim("C:/Users/sc/Desktop/Karla_corrupcion/datos2017.txt")
# cabecera de datos
head(datos2017)

```

### 1.Analizando a rela��o entre variaveis
As duas principais maneiras de fazer isso s�o atrav�s de representa��es gr�ficas (gr�ficos de dispers�o) e o c�lculo do coeficiente de correla��o de cada par de vari�veis.

```{r }
# Calculo de matriz de correlacion
round(cor(x = datos2017, method = "pearson"), 3)
```

```{r }
library(psych)
multi.hist(x = datos2017, dcol = c("blue", "red"), dlty = c("dotted", "solid"),
           main = "")

```


```{r }
library(GGally)
ggpairs(datos2017, lower = list(continuous = "smooth"),
        diag = list(continuous = "bar"), axisLabels = "none")
```


As seguintes conclus�es podem ser extra�das da an�lise preliminar:

As vari�veis que possuem maior rela��o linear com o controle da corrup��o s�o: estabilidade pol�tica e aus�ncia de viol�ncia (r = 0,879), efetividade do governo (r = 0,816) e estado de direito (r = 0,85).

Voz e responsabilidade e qualidade regulat�ria s�o moderadamente correlacionadas (r = 0,633), (r = 0,727), respectivamente, ent�o pode n�o ser �til introduzir os dois preditores no modelo.

## 2. Constr��o dol modelo

Constru�mos o modelo com todas as vari�veis como preditores e fazendo a sele��o dos melhores preditores com a medida de Akaike (AIC).

```{r }
modelo <- lm(CC_EST ~ PV_EST + VA_EST + GE_EST +RQ_EST+ RL_EST, data = datos2017 )
 #Resumo do modelo
summary(modelo)   
```

O modelo com todas as vari�veis introduzidas como preditores tem um R ^ 2 alto (0,8537), � capaz de explicar 85,37% da variabilidade observada no controle de corrup��o. O valor p do modelo � significativo
(3,037e-13) para que se possa aceitar que o modelo n�o � por acaso, pelo menos um dos coeficientes de regress�o parcial � diferente de 0. Muitos deles n�o s�o significativos, o que � uma indica��o de que eles podem n�o ser Contribua para o modelo.

## 3.Sele��o dos melhores preditores (Melhor modelo)

Vamos usar a estrat�gia mista. O valor matem�tico usado para determinar a qualidade do modelo ser� o "Akaike Information Criterion " (AIC).


```{r }
step(object = modelo, direction = "both", trace = 1)
```

O melhor modelo foi:
```{r }
modelo <- lm(CC_EST ~ PV_EST + GE_EST + RL_EST, data = datos2017 )
summary(modelo)  
```
 
Cada um dos declives de um modelo de regress�o linear m�ltipla (coeficientes de regress�o parcial de previs�o) � definido da seguinte forma: Se o resto das vari�veis s�o mantidas constantes, para cada unidade que aumenta o preditor em quest�o, a vari�vel (Y ) varia em m�dia quantas unidades a inclina��o indicar. Para este exemplo, para cada unidade que aumenta a efetividade preditora do governo, a de corre��o aumenta em m�dia 0,32954 unidades, mantendo o restante dos preditores constante.

## 4.Valida��o de condiciones para a regres�o m�ltiple lineal 

Rela��o linear entre preditores num�ricos e a vari�vel resposta:

Se a rela��o � linear, os res�duos devem ser distribu�dos aleatoriamente em torno de 0 com uma variabilidade constante ao longo do eixo X. Esta �ltima op��o � geralmente mais indicada, pois permite identificar poss�veis outliers.

```{r }
library(ggplot2)
library(gridExtra)
plot1 <- ggplot(data = datos2017, aes(PV_EST, modelo$residuals)) +
  geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
  theme_bw()
plot2 <- ggplot(data = datos2017, aes(GE_EST, modelo$residuals)) +
  geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
  theme_bw()
plot3 <- ggplot(data = datos2017, aes(RL_EST, modelo$residuals)) +
  geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
  theme_bw()

grid.arrange(plot1, plot2, plot3)

```
A linearidade � satisfeita para todos os preditores

Distribui��o normal de res�duos:

```{r }
qqnorm(modelo$residuals)
qqline(modelo$residuals)

```

```{r }
shapiro.test(modelo$residuals)
```

 Tanto a an�lise gr�fica quanto o teste de hip�tese confirmam a normalidade. Cumpre com a suposi��o de desperd�cio normal

 # Conclus�o

Controle de corrup��o = 0.60797PV_EST + 0.32954GE_EST + 0.20123RL_EST

� capaz de explicar 85,25% da variabilidade observada no controle de corrup��o (R ^ 2: 0,8525, R ^ 2-Ajustado: 0,8402). O teste F mostra que � significativo (p-valor: 4.955e-15). Todas as condi��es para esse tipo de regress�o m�ltipla s�o satisfeitas.

